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Подані результати одного з підходів реалізації ідентифікації та аутентифікації суб'єктів 
автоматизованої системи через аналіз текстової інформації, що вводить користувач під час листування, 
коментування, та написання статей. Для вирішення цієї проблеми запропонована реалізація системи аналізу 
текстової інформації та прийняття рішень. Система може бути використана на практиці, наприклад для 
виявлення інтернет «ботів» в соціальних мережах, формах та порталах новин. 
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Вступ 

Одна з основних проблем, що постає перед розробниками програмних додатків - 
ідентифікація користувача. Реєстрація користувача полегшує збір статистики і забезпечує 
цілісність даних користувача, що дає можливість власникам додатків вигідно для себе і 
для користувача використовувати цю інформацію. Ідентифікацію та аутентифікацію 
можна вважати основою програмно-технічних засобів безпеки, оскільки інші сервіси 
розраховані на обслуговування іменованих суб'єктів (11 |. Ідентифікація та аутентифікація - 
це «перша лінія оборони» інформаційного простору організації. 

Ідентифікація дозволяє суб'єкту (користувачеві, процесу, що діє від імені 
користувача, чи іншого  апаратно-програмному компоненту) назвати себе 
(повідомити своє ім'я). За допомогою аутентифікації друга сторона переконується, 
що суб'єкт дійсно той, за кого він себе видає. Як синонім слова «аутентифікація» 
іноді використовують словосполучення «перевірка справжності» (21. 

Попередня апробація вже досягнутих результатів показала, що одним з 
найвагомішим фактором ідентифікації (якщо брати за приклад сайти з можливістю 
різноманітних публікацій, коментування, тощо) є аналіз та кластеризація текстової 
інформації користувачів для подальшої її класифікації за певними ознаками 1 
визначення «портрету» користувача. 

Методи ідентифікації користувачів у УУЕВ-просторі 

В цій статті на основі досліджень методів ідентифікації користувачів у МУЕВ- 
просторі, піднімається проблема перевірка належності декількох аккаунтів одному і 
тому самому користувачу та ціль їх створення, через аналіз текстової інформації, що 
вводить користувач під час листування, коментування, та написання статей. 
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Ставиться задача розробки аналізатора текстової інформації користувача для 
подальшої класифікації та виявлення декількох аккаунтів одного і того самого 
користувача, що можуть нести певну загрозу. 

Проблема ідентифікації та аутентифікації користувачів залишається відкритою, 
адже поки ще не існує єдиного методу для виявлення суб'єкта, що користується 
автоматизованою системою (АС) у поточний момент часу |3|. Звідси випливає 
актуальність в дослідженні даної теми та розробці нових методів ідентифікації. 

Позитивним результатом аутентифікації є авторизація користувача, тобто 
надання йому прав доступу до ресурсів. Для доступу до різних АС можуть 
застосовуватися різні методи аутентифікації. 

Залежно від міри довірчих стосунків, структури, особливостей мережі і відда- 
леності об'єкта перевірка даних наданих до АС може бути односторонньою або вза- 
ємною. Розрізняють однофакторну і строгу (двофакторну) аутентифікації. В одно- 
факторних системах, найпоширенішими є парольні системи аутентифікації |4). 

Основною метою використання методів для задач кластеризації та класифікації 
текстових документів, створення на їх основі засобів кластеризації та класифікації 
текстових даних користувача із застосуванням апарату теорії матриць, зокрема 
псевдообернення і проекціювання, функцій Ляпунова, та застосування їх до методів 
ідентифікації користувача у УМ/ЕВ-просторі є завдання класифікувати аккаунти 
користувача до класів певної спрямованості з високою точністю. 

Розробка багатофакторної системи аналізу текстової інформації 

Для виконання поставленої задачі пропонується до вже розробленої 
багатофакторної системи аналізу інформації та прийняття рішень |5| розробити та 
додати аналізатор текстів користувача, що буде кластеризувати тексти та по ним 
класифікувати користувачів до заздалегідь заданих класів загрози. 


4. Модуль 
відбору не 
інформативних 
ознак 


5. Модуль 
відображення Класи 
даних 


Вхідні » 1. Модуль » 2.Модуль 
документи підготовки даних кластеризації 


4 


3. Модуль 
класифікації 


Рис. 1. Схема роботи текстового аналізатора 


Вхідними даними для програмного комплексу є тексти користувача, що 
зберігаються у Муза! базі даних УЕВ-сайту з використанням кодування ОМІСОРЕ. 

Задачею попередньої обробки - є побудова вектору ознак. Основними 
засобами тут є видалення стоп-слів, приведення до основної словоформи. 
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В результаті будується вектор-ознак, засобами СоліМеівни І6), документу що 
складається зі всіх слів що входять в документ після застосування засобів 
попередньої обробки. 

Виділимо основні етапи реалізації кластеризатора (метод К-гіперплощинної 
кластеризації): 

1. Попередня обробка інформації; 

2. Виділення характеристик: вибір властивостей, що характеризують об'єкти. 
Розрізняють кількісні характеристики і якісні. Основною характеристикою текстової 
інформації є слово й кількість його екземплярів у конкретному документі; 

3. Визначення метрики. Метрика вибирається залежно від простору, де 
розташовані об'єкти, 1 неявних характеристик кластерів. Якщо всі координати 
об'єкта безперервні й речовинні, а кластери повинні являти собою щось подібне до 
гіперсфер, то використовується метрика Евкліда: 


хх, а 


а 
а(хьху)- Фе - хордуани з | 
Каї 


4. Розбиття об'єктів на групи: власне сама кластеризація; 

5. Представлення результатів. Текстову інформацію, розбиту на підмножини 
зручніше представляти у вигляді папок (кластерів) - категорій і кластеризованих 
текстових документів усередині них. 

На вхід модуля класифікації на етапі навчання подається матриця документів 
що представляє собою навчальну вибірку. Після навчання на вхід алгоритмів 
класифікації подається тестова вибірка у вигляді векторів-ознак документів. 

Для вирішення завдань класифікації сигналів запропоновано новий підхід 
заснований на побудові спеціальних функцій Ляпунова за навчальною вибіркою і 
використанні природної метрики, за якою здійснюється вимірювання відстані до 
найближчого сусіда при розпізнаванні сигналів. Функції Ляпунова представляються у 
вигляді квадратичних форм у просторі ознак, у яких використовується матриця, що 
відображає розподіл точок навчальної вибірки за впорядкованими  факторними 
напрямами. 

Розглянемо в просторі ознак для досліджуваних сигналів чи деякого класу подій 


сукупність точок х( )) є К",/) - 1,п. Надалі при розгляді задач будемо використовувати 
відповідні проекційні операції, що визначаються наступними матрицями: 


х( є В", ) з1п 0) 

вах" -Х (3) 

я -бФеммІм 2 ох 4 
п 


Х' - псевдообернена матриця до матриці Х, І, - одинична матриця в просторі Б". 


Тоді квадратичні форми мають наступний вигляд 


(ХЛ ВХ 'Хх 2) (5) 
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і відповідні їм еліпсоїдні контейнери - циліндри можуть бути представлені 
наступним чином 
(х-ХУ КОХ (хо-Ххувес (6) 


що мають деякі цікаві й важливі для застосування властивості. 
На підставі сингулярного представлення матриці можна виділити наступне 
твердження, якщо 


г 
Ж со Упр АотенНИНО ХХ НЛО у опа 
ізі 


ї т? 


тоді мають місце співвідношення 


САРАТОВ ВБУЛКОВО ОВ ХЬКОМТРИЬНО т 
Ус ато ар-ДВЖТО- О і спхох-й (8) 


іі 


Припустимо що 7» - т, тобто це означає, що в сукупності векторів х( )), / - І,п 
існує т лінійно незалежних між собою векторів. 
Тоді для наступних еліпсоїдів 


(хо ЮК хо) есь/ іп (9) 
на яких розміщені точки х()), / - І,п, розглянемо еліпсоїд, що перебуває в середині 
сімейства еліпсоїдів 


(хо ЗВО хо ессе Уа 10) 
піл п 


Рис. 2. Геометрична інтерпретація еліпсоїда 


Цей еліпсоїд (2) можна описати еквівалентними рівняннями: 


1 (хоЮГЕСХТх-2)-і, (1) 
т 
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або У(х, З.п, Ку 1 (х, Зп, Вуз (оо ДВОХ (хо 5), ВОХТ) є В", 
т 


Тут значення М" як параметра не залежить від представників сукупності й 
тому зміни функцій Ляпунова У(х,Х,п,К), нижче досліджується по змінній Х і 
відповідним параметрам Х, К,п. 

Якщо далі ми розглянемо дві множини точок зі своїми функціями Ляпунова |7| 
У С ХИ), па), КВ) | Й | У (2, (02), п(2),В,), то одержимо геометричну ілюстрацію 
приведену на рис. 5.2, яка відображає розміщення точок щодо поверхонь 


У С, ХА), п), К,) о 1, (12) 
У, (ж, Х2), п(2), В,)- 1. (3) 
За у, (..)-1 


се ЗО9З 


Рис. 3. Розміщення точок щодо поверхонь 


Це означає, що відстані від точки Х, щодо якої потрібно прийняти рішення якій із 
двох множин вона належить, до розглянутих центрів Х(1), Х(2) більш доцільно 
вимірювати не за допомогою Евклідової норми, а на підставі побудованих функцій 
Ляпунова. 

При У, (2, ХИ), па), В,) « У, (ж, Х(2), п(2), В, ) точка х відноситься до першої множини, 
і відповідно при протилежному знаку нерівності відноситься до другої множини. 

У такий спосіб на етапі синтезу системи класифікації сигналів для / класів 
навчальна послідовність точок - кожного  К-го класу визначає функцію 
У. (Ю з (Сх, Х(0Ю,п(Ю), К,) й процес розпізнавання далі здійснюється згідно зі схемою, 
представленої на рис. 4: 


уделер). л(?) 
У, (27) ОЙ ча топ 70) -у, о ей каєо 


Рис. 4. Процес розпізнавання 
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Задачею тестування було перевірити чи належить вхідна текстова інформація 
до одного, чи декількох класів загрози, що були попередньо задані. 

З кожної тематики було відібрано певну кількість документів в якості 
навчальної вибірки. Користувачі використовувались як тестові для визначення 
якості класифікації. 

Загальний набір становив 543 документів. Помилка при визначенні конкретно 
кожного коментаря не визначалася, через складність цього підрахунку в ручну. 
Важливішим тут є підрахунок похибки при класифікації користувача. 

Загальна кількість користувачів складала 30 аккаунтів. Загальна кількість 
унікальних входжень кожного аккаунта склала 51 профіль. З цих профілів вірно було 
класифіковано 50. Невірно - 11. Якщо брати загальну можливу кількість зв'язків між 
профілям та рубриками - похибка склала 17.73. 

Висновки 

Для виконання поставленої задачі було розроблено автоматичний аналізатор 
текстової інформації користувачів на основі багатофакторної системи ідентифікації 
користувача у М/ЕВ-просторі. 

Проведені тестування системи показали непоганий результат перевірки 
користувачів на відповідність заздалегідь запропонованим категоріям. 

Розроблену систему можна широко використовувати на практиці, наприклад 
для виявлення інтернет «ботів» в соціальних мережах, формах та порталах новин. 
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КЕ5ОМЕ 
А.С. Магооіїп 
Шіогтабоп апаїузія 5узкет Гог п5ег їехі пте55аре5 

Трі8 агіїсіе 15 Ба5ед оп пеодз апа (0015 Гог ідепійуїпеє 5ибіесів ої ап ацотаїса 
зузіет, Шгоцеп (Фе апаЇу5і5 ої (ехшшаї! іпіогпайоп іфаї (Фе и5ег епіег5 іп Ше 
соггезропаепсе, сопатепіагу, апа уугійпе, агисіез, ге5еагср. 

Тре ргобіет ої (ре и5ег іпіогіпайоп (ехі апаїу/дег Феуеїортепі Їог Гигіфег 
сіаззійсайоп апа ідепийсайоп ої Тему ассоцпія Шаї Беопе іо Ше 5ате иц5ег, Фаї тау беа 
ШФгеаї, 15 ро5ей. 

Тріз8 ргобіет гетаїп5 ипге5оЇуєеа, Бесацзе Шеге 15 по 5іп2Їе плероа Ког іЧепійутпя а 
рег5оп мПо 15 изіпє, Фе сопригег аї Ше ппотепі. ТРі5 шарПез Ше геіеуапсе ої Ше сштепі 
оріс ге5еагсі апа деуеїортепі ої пеуу тешодз ої ічепіийсацоп. 

Бог 50Їуїпеє і5 ргобіет, Фе ФеуеЇортепі ої а ипеег (ехі апаЇу5ег апа аддїпе її (о Ше 
тиїйТасіог десізіоп-такКіпє 5узіет, у/рпісП у/а5 деуеіореа Беїоге, 15 ргорозед. ТРе (ехі 
апаїугег мій сІизіег (ехі5 апа сіаз5іїу п5ег5 їпіо ргедепеа сіа55е5 ої Чапеег. 

То бийа а 5узіет ої тефодз изеай Ког сіцеіегіпе апа сіаз5ійсацоп (азкя ої (ехі доситепіє 

Мейоая Їог (ехі доситепіє сІц5(егіпє апа сіаззійсайоп ргобіетя аге ц5ед Їог 
раатпє Фе 5узіет. Оп Шіз Ба5із, 0018 Бог пбег (ехі Чака сІцз(егіпе апа сіаз5ійсайоп меге 
ц5ей, у Фе иц5е ої Ше паїгіх Шеогу, рагіїсиіагіу Фе Гуарипоу Гипспоп5 рго)еспоп апа 
рзецдоіпуєт3іоп. Ії баз Ббееп арріеа іо Фе пефодз5 ої и5ег ідепийсацоп іп Фе УЕВ. 

Аз а гекиії, ап ашотайс и5ег теззаєєз їехі апаЇу5ег раз Бееп деуеіоредй, Базей оп 
Фе піційТасіог 5уз(ет Гог іЧепійутпе, ц5ег іп Бе УУЕВ, (е5йпеє маз регіогтеай. 

Тре тазК ої (е5ипе ууаз5 (о спесК мУрефег Фе іприк іехі іпіогтайоп геїег5 о опе ог 
тоге сіа55е5 ої Шргеаї5 (па рауе Бееп ргедейпеай. 

А питег ої Фоситепі5 Ногі еасп 5ибіесі ууеге 5сЇссієд аз а ігаїпіпо 5еї. О5ег 
ассоитіз ицз5ед аз а (е5 (0 дегегтіпе Ше дцайгу сіа5війсацоп. 

Тре їоїа! 5еї ої доситепі5 у/а5 543. ТРре егпог іп декегтіпіпеє веасп сопітепі 
зресійсаПу Паз5 пос Бееп дегегтіпед дце іо Ше діййсийу ої соппійпо. Моге ітрогіапі 15 
Фе еог іп Бе иц5ег сіа55ійсацоп саїсиіацоп. 

Тре соіа! питбег ої ц5егя аз 30 ассоипіз. ТБе коіа! питбег ої ипідие оссштепсе5 ої 
еасп ассоцпі маз 51 ргобіе. ТРрез5е ргобіе5 умеге сіаз5іПеад соттесйу - 50. Пісогтесі - 11. Тре 
гогаї роз51бІе питбег ої соппесйоп5 Бебууееп Фе ргобіе5 апа 5еспоп5 егтог у/аз 17.7390. 

Тевіипя ої Фе зузіет 5Ппомеай а єо0а гезиіі ої уегібуїтє ип5ег5 Їог сопарпапсе мл 
ргедейпед сагерогіез. 

Тре зубіет сап Бе ц5ед їп ргасйїсе, Гог ехатріе іо ідепиїу Пиегпеї "Бої8" іп 8осіаї 
песуогК8, Гогит5 ог пему5 рогіаї8. 
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